Morality in dialogue systems has raised great attention in research recently. A moral dialogue system could better connect users and enhance conversation engagement by gaining users' trust. In this paper, we propose a framework, MoralDial to train and evaluate moral dialogue systems. In our framework, we first explore the communication mechanisms of morality and resolve expressed morality into four sub-modules. The sub-modules indicate the roadmap for building a moral dialogue system. Based on that, we design a simple yet effective method: constructing moral discussions from Rules of Thumb (RoTs) between simulated specific users and the dialogue system. The constructed discussion consists of expressing, explaining, and revising the moral views in dialogue exchanges, which makes conversational models learn morality well in a natural manner. Furthermore, we propose a novel evaluation method in the framework. We evaluate the multiple aspects of morality by judging the relation between dialogue responses and RoTs in discussions, where the multifaceted nature of morality is particularly considered. Automatic and manual experiments demonstrate that our framework is promising to train and evaluate moral dialogue systems.
translated by 谷歌翻译
了解神经网络的决策过程很难。解释的一种重要方法是将其决定归因于关键特征。尽管提出了许多算法,但其中大多数仅改善了模型的忠诚。但是,真实的环境包含许多随机噪声,这可能会导致解释中的波动。更严重的是,最近的作品表明,解释算法容易受到对抗性攻击的影响。所有这些使解释很难在实际情况下信任。为了弥合这一差距,我们提出了一种模型 - 不稳定方法\ emph {特征归因}(METFA)的中位数测试,以量化不确定性并提高使用理论保证的解释算法的稳定性。 METFA具有以下两个函数:(1)检查一个特征是显着重要还是不重要,并生成METFA相关的映射以可视化结果; (2)计算特征归因评分的置信区间,并生成一个平滑的图表以提高解释的稳定性。实验表明,METFA提高了解释的视觉质量,并在保持忠诚的同时大大减少了不稳定。为了定量评估不同噪音设置下解释的忠诚,我们进一步提出了几个强大的忠诚指标。实验结果表明,METFA平滑的解释可以显着提高稳健的忠诚。此外,我们使用两种方案来显示METFA在应用程序中的潜力。首先,当应用于SOTA解释方法来定位语义分割模型的上下文偏见时,METFA很重要的解释使用较小的区域来维持99 \%+忠实。其次,当通过不同的以解释为导向的攻击进行测试时,METFA可以帮助捍卫香草,以及自适应的对抗性攻击,以防止解释。
translated by 谷歌翻译
最近,深度加固学习(RL)在机器人操作应用中表现出了一些令人印象深刻的成功。但是,由于样本效率和安全性问题,现实世界中的培训机器人是不平凡的。提出了SIM到现实的转移来解决上述问题,但引入了一个名为“现实差距”的新问题。在这项工作中,我们通过使用单个摄像头的输入来解决上述问题,为基于视觉的组装任务引入SIM模型学习框架,并在模拟环境中进行培训。我们提出了一种基于循环一致的生成对抗网络(CycleGAN)和力量控制转移方法来弥合现实差距的域适应方法。我们证明,在模拟环境中训练有训练的拟议框架可以成功地转移到真实的孔洞设置中。
translated by 谷歌翻译
在现代制造环境中,对接触式任务的需求正在迅速增长。但是,很少有传统的机器人组装技能考虑任务执行过程中的环境限制,并且大多数人将这些限制作为终止条件。在这项研究中,我们提出了基于推动的混合位置/力组装技能,该技能可以在任务执行过程中最大化环境限制。据我们所知,这是在执行程序集任务期间使用推动操作考虑的第一项工作。我们已经证明,我们的技能可以使用移动操纵器系统组装任务实验最大化环境约束的利用,并在执行中实现100 \%的成功率。
translated by 谷歌翻译
旨在自动进行工程增强政策的自动数据扩展最近引起了不断增长的研究兴趣。许多以前的自动启发方法通过评估测试时间增强性能来评估策略,利用了密度匹配策略。在本文中,我们从理论上和经验上证明了火车和小规模医学图像数据集的验证集之间的不一致,称为内域采样偏差。接下来,我们证明了域中采样偏置可能导致密度匹配的效率低下。为了解决这个问题,提出了一种改进的增强搜索策略,称为增强密度匹配,是通过从先前的培训分布中随机采样策略提出的。此外,提出了有效的自动机器学习(AUTOML)算法,通过统一数据增强和神经体系结构的搜索来提出。实验结果表明,所提出的方法优于MedMnist的最先进方法,MedMnist是一种开拓性的基准测试,旨在在医学图像分析中进行自动。
translated by 谷歌翻译
痤疮检测对于解释性诊断和对皮肤疾病的精确治疗至关重要。任意边界和痤疮病变的尺寸较小,导致在两阶段检测中大量质量较差的建议。在本文中,我们提出了一个针对地区建议网络的新型头部结构,以两种方式提高建议的质量。首先,提出了一个空间意识的双头(SADH)结构,以从两个不同的空间角度从分类和本地化进行分类和本地化的表示。拟议的SADH确保了更陡峭的分类信心梯度,并抑制了与匹配的地面真理相交(IOU)低相交(IOU)的建议。然后,我们提出了一个归一化的Wasserstein距离预测分支,以改善提议分类评分与IOU之间的相关性。此外,为了促进痤疮检测的进一步研究,我们构建了一个名为Acnescu的新数据集,具有高分辨率成像,精确的注释和细粒度的病变类别。对AcnesCU和公共数据集Acne04进行了广泛的实验,结果表明该方法可以提高建议的质量,始终超过最先进的方法。代码和收集的数据集可在https://github.com/pingguokiller/acnedetection中找到。
translated by 谷歌翻译
视觉预读(VLP)模型最近成功地促进了许多跨模式下游任务。大多数现有作品通过比较微调的下游任务性能来评估其系统。但是,只有平均下游任务准确性才能提供有关每种VLP方法的优缺点的几乎没有信息,更不用说有关社区如何改善系统的见解。受清单进行自然语言处理的启发,我们引入了VL-CheckList,这是一个新颖的框架,以了解VLP模型的功能。所提出的方法将VLP模型的图像定位能力分为三类:对象,属性和关系,并使用新颖的分类法进一步分解这三个方面。我们进行了全面的研究,通过提出的框架分析了七个最近流行的VLP模型。结果通过揭示了仅在下游任务评估中看不见的模型之间的细粒度差异来证实所提出的方法的有效性。进一步的结果表明,在构建更好的VLP模型方面有希望的研究方向。数据和代码:https://github.com/om--ai-lab/vl-checklist
translated by 谷歌翻译
在过去的几年中,基于变压器的预训练的语言模型在行业和学术界都取得了惊人的成功。但是,较大的模型尺寸和高运行时间延迟是在实践中应用它们的严重障碍,尤其是在手机和物联网(IoT)设备上。为了压缩该模型,最近有大量文献围绕知识蒸馏(KD)的主题长大。然而,KD在基于变压器的模型中的工作方式仍不清楚。我们取消了KD的组件,并提出了一个统一的KD框架。通过框架,花费了23,000多个GPU小时的系统和广泛的实验,从知识类型的角度,匹配策略,宽度深度折衷,初始化,型号大小等。在培训前语言模型中,对先前最新的(SOTA)的相对显着改善。最后,我们为基于变压器模型的KD提供了最佳实践指南。
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
从自然语言监督中学习视觉表示,最近在许多开创性的作品中表现出了巨大的希望。通常,这些具有语言的视觉模型表现出对各种数据集和任务的强大可传递性。但是,由于缺乏易于使用的评估工具包和公共基准,评估这些模型的可转让性仍然很具有挑战性。为了解决这个问题,我们构建了高级版(评估语言的视觉任务级传输),这是用于评估(预训练)语言增强视觉模型的第一个基准和工具包。升华由三个组成部分组成。 (i)数据集。作为下游评估套件,它由20个图像分类数据集和35个对象检测数据集组成,每个数据集都用外部知识来增强。 (ii)工具包。开发了自动高参数调谐工具包,以促进下游任务的模型评估。 (iii)指标。多种评估指标用于测量样品效率(零射击和少量)和参数效率(线性探测和完整模型微调)。我们在https://computer-vision-in-the-wild.github.io/elevater/上公开发布leverater
translated by 谷歌翻译